بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

Authors

پریسا شیروانی

parisa shirvani مهرداد وطن خواه خوزانی

mehrdad vatankhah khouzani خشایار یغمایی

khashayar yaghmaie

abstract

بازشناسی متون، در سال های اخیر بسیار مورد توجه قرار گرفته است. ارائه الگوریتم های بازشناسی برگرفته از ساختار گرامری و معنایی این زبان می تواند روش موثری در پردازش های دیگر مربوط به خط و زبان فارسی باشد. در این مقاله با استفاده از شاخه علمی پردازش زبان-های طبیعی، یک الگوریتم سه مرحله ای به منظور بازشناسی متون فارسی بر مبنای بازشناسی جملات فارسی ارائه می شود. این روش شامل مراحل ترکیب زیرکلمات به منظور ساخت کلمات و سپس جملات بالقوه معنی دار و در نهایت استفاده از دو مدل زبانی و چند قاعده گرامری به منظور تشخیص جمله صحیح براساس انطباق با گرامر زبان فارسی می باشد. آزمایشات متعدد نشان می دهد که دقت روش ارائه شده برای مرحله ساخت کلمات و سپس جملات بالقوه معنی دار 98 درصد و 85 درصد برای تشخیص جمله صحیح با استفاده از مدل زبانی بایگرام و 88 درصد برای مدل زبانی ترایگرام است.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi tex...

full text

بازشناسی متون فارسی با استفاده از روشهای گرامری و معنایی

یکی از رایجترین اشکال انتقال اطلاعات، کاغذ می باشد. حجم زیادی از اطلاعات از طریق کاغذ منتقل می شوند. مستندات کاغذی از تنوع زیادی برخوردار هستند به عنوان مثال اطلاعات روی کاغذ می تواند شامل متون چاپی یا دست نویس، جداول، منحنی ها، تصاویر و ... باشد. ترکیب این اطلاعات بر روی اسناد کاغذی و همچنین استفاده از انواع مختلف قلم ها و ویژگی های خاص باعث دشواریهایی در بازیافت اطلاعات می گردد. علاوه بر این ...

15 صفحه اول

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

تشخیص دست‌نوشتۀ‌ برخط فارسی با استفاده از مدل زبانی و کاهش قوانین نگارش کاربر

The Joint-up, cursive form of Persian words and immense variety of its scripts, also different figures of Persian letters depending on their sitting positions in the words, have turned the Persian handwritings recognition to an intense challenge. The major obstacle of the most often recognition ways, is their inattention to sentence contexture which causes utilizing of a word with correct appea...

full text

کشف و شناسایی بدافزارها با استفاده از ترکیب مدل n-gram و مدل مخفی مارکوف (hmm)

در یک تعریف کلی، می توان کلیه ی کدهای مخربی که بالقوه توانایی آسیب رساندن به سیستم های کامپیوتری یا شبکه ای از سیستم های کامپیوتری را دارند، بدافزار نامید. رشد کمی و کیفی بدافزارها در سال های اخیر به مدد افزایش کیفیت و کمیت کیت های تولید ویروس و ظهور تکنولوژی های نوین جهت تولید و گسترش ویروس های دگردیس و همچنین افزایش استفاده ی عمومی از ابزارهای اینترنتی و تحت وب، سرعت چشمگیری داشته است. در حال...

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

My Resources

Save resource for easier access later


Journal title:
پردازش علائم و داده ها

جلد ۱۱، شماره ۱، صفحات ۱۰۷-۱۱۵

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023